这个Attention有三块功能构成:1.KV Compressor负责把N个token的KV压缩成1个,在DeepSeek V4系列模型里,N=4。2.Lightning Indexer再从压缩后的KV里挑选top-k个KV参与注意力计算,DeepSeek V4 Flash模型的k=512,Pro模型的k=1024。3.因为KV Compressor会把多个token压缩,压缩后的KV Entriy内部的token之间是无法相互看到的,而且语言模型对最近的token是高度依赖的。所以需要维护滑动窗口(Sliding Window),保留一些最近的未压缩KV,弥补压缩带来的损失。一般,sliding window=128。
最近 HuggingFace 上有个 DeepSeek V4 Flash 量化版 突然火了——更狠的是,作者是 antirez(Redis 作者 Salvatore Sanfilippo) 我查了一下 简介 事情其实是这样的:antirez 同步开源了两件配套的事: DeepSeek V4 Flash 的专用量化版 GGUF:托管在 huggingface.co/antirez/deepseek-v4 -gguf DwarfStar 4(简称 ds4):一个专门为 DeepSeek V4 Flash 设计的推理引擎,托管在 github.com/antirez/ds4 注意定语:ds4 不是通用 GGUF V4 Flash,这套组合是当前能找到的"最爽配置"之一 4. 通用性差是事实 不要指望它能跑 Qwen、Llama、其他 DeepSeek——它就只跑 V4 Flash,换模型就得换引擎 总结 ds4 + DeepSeek V4 Flash GGUF 这套组合,是
大家可能听说过很多次,DeepSeek V4就要爱了,这一次可能是最靠谱的时间点了。 就在上周,多位知情人士透露,DeepSeek创始人梁文锋在内部已经明确了节奏:下一代旗舰大模型V4,计划于4月下旬正式与公众见面 。 但这一次,DeepSeek V4干了一件牛逼的事情:完全运行在华为昇腾950PR芯片之上,底层代码从CUDA全面转向华为自研的CANN框架 。 这意味着什么? 但其实我觉得 DeepSeek V4 虽然会比 V3 更好,但一定没有大家像之前期待的那么炸裂。 我们应该用正常的眼光来看待更多“平凡、也会犯错的 DeepSeek",哪怕崩溃了,V4 不那么惊艳,也并不影响 DeepSeek 的历史地位,已经它仍然是一家巨牛逼的公司。
DeepSeek V4不只是聊天机器人,它是能真正干活的AI助手。 一、DeepSeek V4是什么? 2026年4月24日,DeepSeek发布V4预览版,两个版本: V4-Pro:完整版,Agent能力强,推理性能顶级 V4-Flash:轻量版,速度快,成本低 核心能力: 百万字上下文:一次能读1M 保存为result.xlsx" 效果: 一次生成可运行的代码 自动处理异常情况 代码质量接近中级工程师水平 真实案例: 某开发团队用DeepSeek V4写代码,从"半天一个功能"到"1小时一个功能", 4 代码能力: V4-Pro接近Claude 4 Sonnet 长文本处理: V4(1M)> Claude(200K) 成本: V4更低 中文优化: V4更好 ▪ 5.3 vs DeepSeek V3 需要更高级功能,升级到Pro版 一句话带走: DeepSeek V4不是聊天机器人,是你的AI工作伙伴。
驾驭千亿参数:DeepSeek V4 Prompt 工程最佳实践 摘要: DeepSeek V4 拥有强大的逻辑推理与代码生成能力,但如何"用好"它是一门艺术。 结构化提示词框架 (CRISPE) 一个优秀的 Prompt 应包含以下要素: 图2:CRISPE 框架六大要素及其在 DeepSeek V4 中的应用 要素 说明 示例 C - Capacity/ 实测数据: 在数学推理任务中,CoT 可使 DeepSeek V4 的准确率从 68% 提升至 91%。 图3:普通 Prompt vs CoT Prompt 在复杂逻辑任务中的准确率对比 3. JSON Mode 结构化输出 DeepSeek V4 支持强制输出 JSON 格式,极大简化后端解析逻辑。 关注我,获取《DeepSeek V4 企业级应用实战》系列最新文章! ✍️ 行文仓促,定有不足之处,欢迎各位朋友在评论区批评指正,不胜感激!
对于V4这样庞大的MoE模型,微调不仅是提升性能的手段,更是实现商业价值最大化的必经之路。第二章:微调前的准备工作成功的微调始于周密的准备。本章将指导你完成环境、硬件和数据的搭建。 自动检测load_in_4bit=True#使用4-bit量化#加载基础模型model,tokenizer=FastLanguageModel.from_pretrained(model_name="deepseek-ai /DeepSeek-V4-Flash",max_seq_length=max_seq_length,dtype=dtype,load_in_4bit=load_in_4bit,)4.3应用LoRA适配器展开代码语言 ,r=16,#LoRA秩target_modules=["q_proj","k_proj","v_proj","o_proj","gate_proj","up_proj","down_proj"],#V4 在昇腾CANN软件栈上直接运行这些框架进行V4微调,仍面临兼容性挑战。可行路径:混合模式:在NVIDIAGPU上完成微调,导出FP16或INT4格式的模型,然后将微调后的模型部署到昇腾平台进行推理。
DeepSeek V4:结构性的成本革命 DeepSeek V4的核心突破在于解决了超长上下文大模型在推理阶段的效率瓶颈。 三、开源护城河 vs 商业生态圈 DeepSeek V4:深植开源社区,构建开发者生态 完全开源:采用MIT协议,个人和企业均可免费下载权重并商用,显著降低了技术门槛。 如果希望完全掌控模型并实现私有化部署,DeepSeek V4是明确的选择。 但如果追求极致的性能上限和完备的官方工具链,GPT-5.5依然是难以绕过的标杆。 四、总结 回到最初的问题:GPT-5.5和DeepSeek V4,哪个更好? 数据高度敏感,要求完全合规 ✅ DeepSeek V4系列 完全开源,支持私有化部署且适配华为昇腾芯片,可控性高。
打造全能编程助手:DeepSeek V4 Agent 开发与工具调用 摘要: Agent(智能体)是大模型应用的高级形态。 本文详解如何利用 DeepSeek V4 的 Function Calling 能力,构建能够自主调用外部工具的编程助手。 Bug 位置,生成修复代码,运行单元测试验证,最后提交 Git Commit 价值: 将开发者从重复性工作中解放出来,专注于架构设计与核心逻辑 图1:Agent 从代码审查到自动修复的完整流程 DeepSeek V4 强大的 Function Calling 能力使其能够理解工具的功能描述,并在需要时主动调用。 定义工具 Schema 首先,我们需要告诉 DeepSeek V4 有哪些工具可用,以及每个工具的参数格式。
DeepSeek从V3.1开始也走了这条路,V4当然也是混合架构。所以R2这个代号,大概率就这么退休了。就像OpenAI的o3,也成了最后一代独立推理模型,直接被吞进了GPT-5。 这个方向的评测目前还没有特别统一的标准,但各家内部测试和第三方机构的反馈,V4-Pro的Agent表现确实很能打。1.6万亿参数,大了两倍半V4-Pro的总参数量是1.6万亿。 在很多人觉得“参数规模不太重要了”的今天,DeepSeek用V4说了一句:大就是有效,大就是聪明,大就是领先。但“大”也有代价。参数涨了,推理成本就压不住。 比架构更值得关注的:国产算力V4发布当天,华为云就宣布昇腾超节点完成全栈适配。这背后工程量有多大?DeepSeek需要把大量原本跑在NVIDIAGPU上的CUDA代码,迁移到华为的CANN架构上。 DeepSeek作为国内最强开源力量,正在用V4把国产算力生态拉进真正的实战场景。而且MIT许可证全开源,任何人都能拿去用、拿去改、拿去商用。写在最后V4这次发布,没有去年R1那种颠覆式的震撼。
不用技术背景,看懂 DeepSeek V4 创新和差异~ 同一天,OpenAI 发布了 GPT-5.5。DeepSeek 也发了 V4。 DeepSeek V4 的核心优势在第三个维度:同等效果下,成本砍掉了大半。 一个长上下文,卡了行业两年 要理解 DeepSeek V4 做了什么,先理解这个问题:为什么 AI 很难"读长文"? DeepSeek V4 的核心创新:把长文"压一压" DeepSeek V4 的技术团队想到一个办法:先压缩,再处理。 想象你要读一篇 1000 页的报告。 正常方式:把每一页都完整保留,互相比对。 短板:上下文只有 128K,相比 DeepSeek V4 的 100 万差距明显。 2026.04GLM-5.1(智谱) 方向:工程级 Agent + 减少幻觉。 MetaLLaMA 4 Scout 方向最激进:10M(1000 万)token 上下文,比 DeepSeek V4 还多 10 倍。用 iRoPE 交错位置编码实现。
日,DeepSeek 正式发布 V4 系列,同步开源。 "DeepSeek V4 不需要在每一项评测上赢,它只需要足够好,然后让价格做剩下的工作。" 评测项 DeepSeek V4-Pro Claude Opus 4.6 V4 表现 LiveCodeBench 代码生成 93.5% 88.8% ✅ 领先 SWE-Bench 软件工程 55.4% 64.3% DeepSeek 自己的内部评测也承认:「Agent Coding 体验优于 Sonnet 4.5,接近 Opus 4.6 非思考模式,但与 Opus 4.6 思考模式仍有差距。」 这,才是 DeepSeek V4 最重要的地方。
DeepSeek-V4-Pro:性能比肩顶级闭源这是 V4 系列的满血版本,专为复杂任务和强推理场景设计:Agent 能力史诗级跃升: 在 Agentic Coding 评测中,V4-Pro 已经登顶当前开源模型榜首 据内部评测反馈,其作为 Agentic Coding 模型的使用体验已优于 Sonnet 4.5,交付质量更是逼近 Opus 4.6(非思考模式)。 数理与推理霸榜: 在数学、STEM、竞赛型代码等硬核测评中,V4-Pro 超越了当前所有已公开评测的开源模型,跻身世界第一梯队。 DeepSeek-V4 此次开创了一种全新的注意力机制:通过在 Token 维度进行深度压缩,并结合创新的 DSA 稀疏注意力(DeepSeek Sparse Attention) 机制,V4 在实现了全球领先的长上下文能力的同时 集合技术报告 (PDF): DeepSeek_V4.pdf结语从 V2 的 MoE 架构惊艳亮相,到 V3 的全面强化,再到今天 V4 带来的百万上下文与顶级 Agent 能力,DeepSeek 一直在践行其
图 1:DeepSeek V4 核心要点全景2026 年 4 月 24 日,OpenAI 发布 GPT-5.5 后不到 24 小时,DeepSeek V4 预览版上线了。 翻完 58 页技术报告和十几篇社区评测,我的判断是:V4 不是一次简单的参数堆叠,而是一次围绕长上下文效率的架构重构。 这篇文章,我会从技术架构、评测数据、定价策略三个维度把 V4 拆开来看。最后也会聊聊:它到底算不算王者归来?1. DeepSeek V4 的思路不同。 = "deepseek-v4-flash"国产算力适配V4 在这方面走得比任何国产模型都远。
中国AI实验室DeepSeek推出了其最新大语言模型DeepSeek V4的两个预览版本,这是对去年V3.2模型及伴随的R1推理模型的备受期待的更新,后者曾席卷AI领域。 该公司表示,DeepSeek V4 Flash和V4 Pro均为混合专家(Mixture-of-Experts)模型,每个模型拥有100万token的上下文窗口——足以让大型代码库或文档用于提示词中。 DeepSeek表示,由于架构改进,这两个模型比DeepSeek V3.2更高效、性能更佳,并且在推理基准上几乎“缩小了”与当前领先模型(无论是开放还是闭源)的差距。 在编程竞赛基准中,DeepSeek表示两款V4模型的性能“与GPT-5.4相当”。 V4 Flash和V4 Pro都仅支持文本,不像许多闭源同行那样支持理解并生成音频、视频和图像。值得注意的是,DeepSeek V4比当今任何前沿模型都便宜得多。
昨天我们介绍了Deepseek V4 Pro预览版正式上线!它的PLC编程能力到底如何? 那对于我们RealPLC而言,必须实时更新下,把这个模型都接入进来。 01 申请DeepSeek API 我们首先到DeepSeek开发者平台,获取到API KEY。这是最重要的一步。 Step1:登录DeepSeek官网。 在设置界面里: AI提供方选择DeepSeek,模型任选一个,DeepSeek的API密钥填写刚刚保存备用的KEY。BaseURL填写: 确定好保存更改即可。 然后我们可以用专家场景里面的PID应用来测试下DeepSeek V4 Pro生成西门子PLC程序效果: 我们进入服务器后台可以看到,Job ID已经生成了,说明DeepSeek成功响应: 再回到我们的web
我们将从产品定位、核心技术架构、多模态能力细节、性能评测、部署实践到未来展望,层层递进,力求为您呈现一个完整、准确且深刻的V4画像。 第四章:性能评测与横向对比——开源领域的巅峰之作DeepSeek-V4在多个维度的评测中均展现出顶尖实力。 4.2长上下文专项评测在LongBench和InfiniteBench等长上下文评测套件中,V4系列表现尤为突出。 具身智能(EmbodiedAI):将V4作为大脑,驱动机器人在物理世界中进行探索和学习。结语DeepSeek-V4不仅仅是一个技术产品,它更是一种宣言,一种信念。 在这个由V4开启的新纪元里,无数的创新火花将被点燃,无数的应用场景将被重塑。作为开发者,我们正站在一个激动人心的时代入口,而DeepSeek-V4,无疑是那把最锋利的钥匙。
DeepSeek 更新了V4? 下午5点左右,DeepSeek更新了一个新模型,据说是个小模型,整理能力我个人觉得比3.2是强一点的,但还比不上谷歌的Gemini 3,所以不确定是不是V4。 是不是很神奇,其实离DeepSeek R1发布才1年多,恍如隔世。
一、前言:超越“更大即更好”的新范式2026年4月24日,深度求索(DeepSeek)正式开源发布DeepSeek-V4系列预览版,一举引爆全球AI圈。 这种精细化的工程调优,使得V4能够在保持极高稀疏度的同时,依然获得稳定的训练效果和卓越的推理性能。 五、性能基准与实测对比DeepSeek官方及社区的多项基准测试表明,V4系列模型在多个维度上均达到了国际领先水平。 这些数据充分证明了V4“高效超大规模”理念的成功。它不仅在能力上不输于顶级闭源模型,在成本和效率上更是实现了降维打击。六、应用场景与开发者生态V4的发布,为开发者和企业打开了全新的应用可能性。 6.2开发者支持DeepSeek为V4提供了全面的开发者工具链:开源权重:在HuggingFace上免费提供,MIT协议允许商用。
他问我:DeepSeek V4 刚出来,值得换吗? Benchmark 和生产表现的差距是 LLM 行业的老问题: Benchmark 被优化过:模型对公开评测题的"记忆"会影响分数,不代表真实泛化能力。 独立验证不足:V4 刚发布,目前结果大多来自 DeepSeek 自己或少数早期试用者,等独立评测跑完会更有参考价值。 Q:DeepSeek V4 能做多模态任务吗? A:V4 原生集成了文本、图像和视频理解能力,且是在预训练阶段融合的,不是后期拼接模块。 :DeepSeek V4 发布报道 BuildFastWithAI:V4-Pro 评测 DeepSeek V4 的意义不是"又一个打败 GPT 的模型"——这种标题已经失效了。
刚刚,DeepSeek 官方公众号发文:DeepSeek-V4 预览版:迈入百万上下文普惠时代。 全新 DeepSeek-V4 的预览版本正式上线。 V4 拥有百万字超长上下文,在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。 现在登录官网什么,就已经是 V4了。 根据官方的报道,DeepSeek-V4-Pro:性能比肩顶级闭源模型,什么叫做比肩顶级闭源模型。 大家看看下面的对比图。 内部评测显示,其使用体验优于Sonnet 4.5,交付质量接近Opus 4.6 3、在数学、STEM(科学、技术、工程、数学)及竞赛级代码等推理测评中,均超越所有已公开评测的开源模型,达到世界顶级水平。 4、V4-Pro版本的世界知识储备,已大幅领先其他开源模型,仅次于顶尖闭源模型Gemini-Pro-3.1 5、深度适配华为昇腾算力:V4将运行在华为最新的昇腾(Ascend)芯片上。